智东西
作者 江宇
编辑 漠影
当前具身智能的发展,正卡在一个越来越明确的瓶颈上:数据规模与真实世界经验的不足。
过去几年,VLA等大模型让机器人在“预训练阶段”取得了显著进展,但一旦进入真实部署环境,问题随之暴露——面对复杂、多变的物理世界,模型能力很难持续提升,依然高度依赖人工标注数据和重复训练。
这也意味着,具身智能尚未真正进入“规模化增长”的阶段。
仅依赖实验室数据或仿真环境,很难支撑机器人能力的持续演进;真正能够带来跃迁的,仍然是来自真实世界、持续积累的高质量交互数据。但问题在于:这些数据从哪里来?
现阶段,大量训练数据仍依赖人工示教或遥操作采集,规模有限、成本高昂,且难以覆盖开放环境中的复杂长尾场景。
要让数据规模真正“滚动起来”,唯一可行的路径,是让机器人走出实验室,在真实场景中长期运行,并将交互经验持续回流。
也正是在这一背景下,上海创智学院和智元具身研究中心联合发布了最新成果罗剑岚团队提出LWD(Learning While Deploying)大规模强化学习训练系统。该工作由创智学院导师,智元首席科学家罗剑岚团队完成。尝试将“部署”本身转化为学习过程的一部分。
这项工作并不聚焦单一算法突破,更给出了一种更具工程可行性的方案——通过在真实世界中持续运行机器人,并将其行为数据统一回流与更新,让每一台机器人既是任务执行者,也是持续产生学习信号的数据源,从而推动通用策略在部署过程中不断进化。
一、让数据飞轮在物理世界自主狂奔
传统模仿学习范式下,非完美的运行轨迹往往被视为“废数据”直接丢弃,机器人只能从成功的人类演示中刻板地模仿。
LWD的核心颠覆在于,它构建了一个由真实世界强化学习驱动的闭环数据飞轮。
在这个飞轮中,机器人集群在真实任务中自主执行并积累异构的交互经验,无论是完美的成功轨迹、试错后的自我恢复、还是人类为了覆盖边界情况而引导的失败案例,都会被统一输送至云端的共享重放缓冲区。
强化学习机制使得这些在传统视角下的“失败”或“意外”数据,全部转化为了指导模型规避错误、优化价值评估的宝贵经验。
随着集群部署规模的扩大和运行时间的累积,数据飞轮的转速不断提升,云端持续更新的强策略又会定期下发给机器人,形成真正的自主造血闭环。
二、强化学习算法深层进化:在嘈杂数据中,精准捕捉“进步”信号
将强化学习应用于真实世界部署的大规模机器人集群,面临着极端的算法挑战。
不同机器人在不同任务中产生的数据极其庞杂,包含着完全不同的指令、长短不一的操作过程,以及非常稀疏的奖励反馈。
为了在这些充满噪声的“异质数据”中稳定提取有用的学习信号,LWD创新性地引入了分布隐式价值学习(DIVL)算法。
简单来说,以往的算法像是在给机器人的表现打一个固定的“平均分”,但在复杂环境中这种打分极不准确;而DIVL则让机器人学会去理解表现的“概率分布”,它不再只看一个点,而是观察整个可能性的区间。
这让机器人在很少得到明确奖励的情况下,也能精准判断哪些动作风险更高、哪些动作更值得尝试,从而有效解决了评价不准、容易过度乐观的老大难问题。
与此同时,针对VLA模型通过多步去噪产生动作的特点,传统的更新方式计算量大且容易跑偏。
LWD结合了Q-learning with Adjoint Matching(QAM),为模型找到了一条数学上的“进化捷径”,让复杂的策略更新不再需要推倒重来,而是通过局部调整就能实现快速迭代,保证了机器人在大规模部署时的学习效率。
三、炼就“通才策略”:挑战5分钟长程复杂操作的极限成功率
为了验证这套训练框架的实战表现,研究团队在智元G1双臂机器人集群上进行了大规模的真实世界部署测试。
测试涵盖了八项极具挑战性的多模态操作任务,包括四类考验语义识别与泛化的商超货架动态补货任务,以及泡功夫茶、榨果汁、调酒、装鞋入盒等四类长程连贯操作任务。
▲评测任务示意图。(A)调制鸡尾酒;(B)冲泡功夫茶;(C)制作果汁;(D)装鞋入盒;(E)商超补货。
在这些持续时间长达5到8分钟、包含数十个接触丰富且存在长程依赖的物理交互任务中,LWD展现出了压倒性的优势。
▲各任务逐步成功率的实验结果
实验数据显示,经过在线真实经验积累后,LWD训练出的单一通用策略在所有任务上的平均成功率达到了惊人的0.95,远超纯行为克隆(0.76)以及先进的离线强化学习基线如RECAP(0.86)和 Dagger-SOP(0.82)。
▲八项真实世界操作任务的主要结果,涵盖四类商超补货任务和四类长程任务。结果显示,LWD(在线)取得了最高的整体平均成绩,并在四项长程任务中全部获得最高分,同时在商超补货任务中也保持在最优或接近最优水平。
▲调制鸡尾酒
尤其在最考验中间错误恢复与长期信用分配的长程任务中,LWD在线更新后的成功率实现了极大幅度的跃升,证明了基于物理世界经验的持续学习是突破复杂操作天花板的有效路径。
▲图中展示了功夫茶任务中一次成功执行(左)和一次失败执行(右)的价值曲线。结果表明,所学习到的价值能够对任务完成进度提供有意义的表征。
结语:把“部署”变成能力增长起点,让机器人在真实世界持续进化
在具身智能的产业化进程中,LWD推动的不仅是算法框架的升级,更是机器人能力迭代方式的一次重要转向。
长久以来,业界习惯将“部署”视为模型训练的终点,而LWD的提出证明了,自主改进应当成为通用机器人策略的基本属性。
学习不应是“出厂即封存的静态能力”,而必须成为部署之后在真实世界里一直延续的进化过程。
只有赋予机器人从海量无序的真实物理交互中自主提取“养分”、持续自我进化的能力,其才能真正打破被人工标注数据框定的舒适区,在千行百业的复杂、开放场景中长久地释放商业价值。